Maps play a key role in rapidly developing area of autonomous driving. We survey the literature for different map representations and find that while the world is three-dimensional, it is common to rely on 2D map representations in order to meet real-time constraints. We believe that high levels of situation awareness require a 3D representation as well as the inclusion of semantic information. We demonstrate that our recently presented hierarchical 3D grid mapping framework UFOMap meets the real-time constraints. Furthermore, we show how it can be used to efficiently support more complex functions such as calculating the occluded parts of space and accumulating the output from a semantic segmentation network.
translated by 谷歌翻译
Generative models have been widely studied in computer vision. Recently, diffusion models have drawn substantial attention due to the high quality of their generated images. A key desired property of image generative models is the ability to disentangle different attributes, which should enable modification towards a style without changing the semantic content, and the modification parameters should generalize to different images. Previous studies have found that generative adversarial networks (GANs) are inherently endowed with such disentanglement capability, so they can perform disentangled image editing without re-training or fine-tuning the network. In this work, we explore whether diffusion models are also inherently equipped with such a capability. Our finding is that for stable diffusion models, by partially changing the input text embedding from a neutral description (e.g., "a photo of person") to one with style (e.g., "a photo of person with smile") while fixing all the Gaussian random noises introduced during the denoising process, the generated images can be modified towards the target style without changing the semantic content. Based on this finding, we further propose a simple, light-weight image editing algorithm where the mixing weights of the two text embeddings are optimized for style matching and content preservation. This entire process only involves optimizing over around 50 parameters and does not fine-tune the diffusion model itself. Experiments show that the proposed method can modify a wide range of attributes, with the performance outperforming diffusion-model-based image-editing algorithms that require fine-tuning. The optimized weights generalize well to different images. Our code is publicly available at https://github.com/UCSB-NLP-Chang/DiffusionDisentanglement.
translated by 谷歌翻译
在不同的环境中进行了广泛的研究并实施了本体论操作,例如对齐和合并,例如,分类操作,关系代数,键入的图形语法,以及不同的关注。但是,在设置中对齐和合并操作共享某些通用属性,例如,分别由(i),(c),(a)和(r)标记为标记的掌握,交换性,关联性和代表性一个本体合并系统$(\ mathfrak {o},\ sim,\ merge)$,其中$ \ mathfrak {o} $是相关的本体,$ \ sim $是$ \ mathfrak的二进制关系} $建模本体对齐和$ \ Merge $是$ \ Mathfrak {O} $建模本体合并的部分二进制操作。给定一个本体论存储库,有限集$ \ mathbb {o} \ subseteq \ mathfrak {o} $,其合并关闭$ \ widehat {\ mathbb {o}} $是最小的Ontologies关于合并的关闭。如果满足(i),(c),(a)和(r),则$ \ mathfrak {o} $和$ \ wideHat {\ mathbb {o}} $都自然地合并,$ \ WideHat {\ Mathbb {O}} $是有限的,可以有效地计算,包括分类,选择和查询某些特定元素,例如最大本体论和最小本体论。我们还表明,本体合并系统,由本体学给出$ v $对齐对和求职,满足属性:(i),(c),(a)和(r),以便部分订购合并系统,并且可以有效地计算出给定存储库相对于定位的合并关闭。
translated by 谷歌翻译
视觉变压器(VIT)最近在各种视觉任务上表现出了典范的性能,并被用作CNN的替代方案。它们的设计基于一种自我发挥的机制,该机制将图像作为一系列斑块进行处理,与CNN相比,这是完全不同的。因此,研究VIT是否容易受到后门攻击的影响很有趣。当攻击者出于恶意目的,攻击者毒害培训数据的一小部分时,就会发生后门攻击。模型性能在干净的测试图像上很好,但是攻击者可以通过在测试时间显示触发器来操纵模型的决策。据我们所知,我们是第一个证明VIT容易受到后门攻击的人。我们还发现VIT和CNNS之间存在着有趣的差异 - 解释算法有效地突出了VIT的测试图像的触发因素,但没有针对CNN。基于此观察结果,我们提出了一个测试时间图像阻止VIT的防御,这将攻击成功率降低了很大。代码可在此处找到:https://github.com/ucdvision/backdoor_transformer.git
translated by 谷歌翻译
特征回归是将大型神经网络模型蒸馏到较小的功能回归。我们表明,随着网络架构的简单变化,回归可能会优于自我监督模型的知识蒸馏更复杂的最先进方法。令人惊讶的是,即使仅在蒸馏过程中仅使用并且在下游任务中丢弃时,将多层的Perceptron头部添加到CNN骨架上是有益的。因此,更深的非线性投影可以使用在不改变推理架构和时间的情况下准确地模仿老师。此外,我们利用独立的投影头来同时蒸馏多个教师网络。我们还发现,使用与教师和学生网络的输入相同的弱增强图像辅助蒸馏。Imagenet DataSet上的实验证明了各种自我监督蒸馏环境中提出的变化的功效。
translated by 谷歌翻译
越来越承认,具有多种模型参数的计划研究的先验统计功率估计本质上是多变量问题。对于个人感兴趣的各个参数的电源无法可靠地估计,因为相对于一个参数的可变地,与一个参数进行相关性和方差,将影响另一个参数的权力,所有通常的单变量的考虑因素都是平等的。在这种情况下,特别是对于具有许多参数的模型的明确解决方案是不切实际或无法解决的,将研究人员与模拟功率的普遍方法进行。然而,模型参数矢量的点估计是不确定的,并且不准确的影响是未知的。在这种情况下,建议使用灵敏度分析,使得模拟可能的可观察参数向量的多种组合以了解电力折衷。对这种方法的限制是,它可以计算得昂贵的昂贵的组合,以便在社会科学家估计的模型中精确地映射越来越高的尺寸空间中的电力折衷功能。本文探讨了对不同模型参数组合的研究的有效估计和绘图。最佳地通电研究对于确保找到假设效果的最小可能性是至关重要的。我们首先展示改变参数值对特定假设的功率的影响,并在给定的精度水平上量化计算这种图的计算强度。最后,我们提出了一种简单宽大的机器学习灵感的解决方案,将计算成本降低到少于7 \%的可能被称为蛮力方法。 [简略]
translated by 谷歌翻译
使用自然语言作为培训视觉识别模型的监督持有巨大的承诺。最近的作品表明,如果在大型训练数据集中的图像和标题之间的对齐形式使用此类监督,则结果对齐模型在零拍摄分类中表现出色,如下游任务2。在本文中,我们专注于挑逗语言监督的哪些部分对于训练零拍摄图像分类模型至关重要。通过广泛和仔细的实验​​,我们表明:1)可以将简单的单词(弓)标题用作数据集中大多数图像标题的替代品。令人惊讶的是,我们观察到这种方法在与单词平衡结合时提高了零拍分类性能。 2)使用船首净化模型,我们可以通过在没有标题的图像上生成伪弓标题来获得更多培训数据。使用真实和伪弓形标题培训的模型达到了更强的零射性能。在ImageNet-1K零拍评估中,我们只使用3M图像标题对的最佳模型,使用15M图像标题对培训的剪辑模型(31.5%VS 31.3%)进行剪辑。
translated by 谷歌翻译
多光谱探测器的进步导致X射线计算机断层扫描(CT)的范式偏移。从这些检测器获取的光谱信息可用于提取感兴趣对象的体积材料成分图。如果已知材料及其光谱响应是先验的,则图像重建步骤相当简单。但是,如果他们不知道,则需要共同估计地图以及响应。频谱CT中的传统工作流程涉及执行卷重建,然后进行材料分解,反之亦然。然而,这些方法本身遭受了联合重建问题的缺陷。为了解决这个问题,我们提出了一种基于词典的联合重建和解密方法的光谱断层扫描(调整)。我们的配方依赖于形成CT中常见的材料的光谱签名词典以及对象中存在的材料数的先验知识。特别地,我们在空间材料映射,光谱词典和字典元素的材料的指示符方面对光谱体积线性分解。我们提出了一种记忆有效的加速交替的近端梯度方法,以找到所得到的Bi-convex问题的近似解。根据几种合成幻影的数值示范,我们观察到与其他最先进的方法相比,调整非常好。此外,我们解决了针对有限测量模式调整的鲁棒性。
translated by 谷歌翻译
我们对自我监督,监督或半监督设置的代表学习感兴趣。在应用自我监督学习的平均移位思想的事先工作,通过拉动查询图像来概括拜尔的想法,不仅更接近其其他增强,而且还可以到其他增强的最近邻居(NNS)。我们认为,学习可以从选择远处与查询相关的邻居选择遥远的邻居。因此,我们建议通过约束最近邻居的搜索空间来概括MSF算法。我们显示我们的方法在SSL设置中优于MSF,当约束使用不同的图像时,并且当约束确保NNS具有与查询相同的伪标签时,在半监控设置中优于培训资源的半监控设置中的爪子。
translated by 谷歌翻译
大规模的未标记数据刺激了学习丰富的视觉表示的自我监督学习方法的最新进展。从图像中学习表示表示形式的最先进的自我监督方法(例如Moco,Byol,MSF)使用诱导性偏差,即图像的随机增强(例如随机农作物)应产生相似的嵌入。我们表明,这种方法容易受到后门攻击的影响 - 攻击者通过将触发器(攻击者选择的图像补丁)添加到图像中来毒害未标记数据的一小部分。模型性能在干净的测试图像上很好,但是攻击者可以通过在测试时间显示触发器来操纵模型的决策。在有监督的学习中对后门攻击进行了广泛的研究,据我们所知,我们是第一个研究他们进行自学学习的人。在自学学习中,后门攻击更为实用,因为使用大型未标记的数据使数据检查以消除毒药过敏。我们表明,在我们的目标攻击中,攻击者可以在测试时使用触发器为目标类别产生许多误报。我们还提出了一种基于知识蒸馏的防御方法,以成功中和攻击。我们的代码可在此处提供:https://github.com/umbcvision/ssl-backdoor。
translated by 谷歌翻译